4 research outputs found
Detection and identification of elliptical structure arrangements in images: theory and algorithms
Cette thèse porte sur différentes problématiques liées à la détection, l'ajustement et l'identification de structures elliptiques en images. Nous plaçons la détection de primitives géométriques dans le cadre statistique des méthodes a contrario afin d'obtenir un détecteur de segments de droites et d'arcs circulaires/elliptiques sans paramètres et capable de contrôler le nombre de fausses détections. Pour améliorer la précision des primitives détectées, une technique analytique simple d'ajustement de coniques est proposée ; elle combine la distance algébrique et l'orientation du gradient. L'identification d'une configuration de cercles coplanaires en images par une signature discriminante demande normalement la rectification Euclidienne du plan contenant les cercles. Nous proposons une technique efficace de calcul de la signature qui s'affranchit de l'étape de rectification ; elle est fondée exclusivement sur des propriétés invariantes du plan projectif, devenant elle même projectivement invariante. ABSTRACT : This thesis deals with different aspects concerning the detection, fitting, and identification of elliptical features in digital images. We put the geometric feature detection in the a contrario statistical framework in order to obtain a combined parameter-free line segment, circular/elliptical arc detector, which controls the number of false detections. To improve the accuracy of the detected features, especially in cases of occluded circles/ellipses, a simple closed-form technique for conic fitting is introduced, which merges efficiently the algebraic distance with the gradient orientation. Identifying a configuration of coplanar circles in images through a discriminant signature usually requires the Euclidean reconstruction of the plane containing the circles. We propose an efficient signature computation method that bypasses the Euclidean reconstruction; it relies exclusively on invariant properties of the projective plane, being thus itself invariant under perspective
Détection de primitives linéaires et circulaires par une approche a contrario
National audienceLow-level image understanding requires the use of different detectors for basic primitives, such as line segments or circular arcs. Most of the existent detectors deal with problems that have been (and still are) extensively studied like parameter tunning, control of number of false detections or execution time. In this paper, we focus on detecting simultaneously lines and circles in an image, while controlling the number of false detections and without any need of parameter tunning. We present an algorithm which extends the Line Segment Detector (LSD) for circles, both being based on the a contrario approach. Due to the fact that the proposed detector targets two different types of primitives, the a contrario validation is used as a criterion for model selection, which is a novelty in the a contrario-based works. In addition, we propose a new algebraic method for estimating a circle, which benefits equally from the direction of the gradient of the contour points, and not only from their position.La compréhension bas niveau d'une image exige l'usage des différents détecteurs de primitives de base, telles que des segments de droite ou arcs de cercles. La plupart des détecteurs existants se confrontent à des problèmes qui ont été (et sont toujours) considérablement étudiés comme le réglage de paramètres, le contrôle du nombre de fausses détections ou le temps d'exécution. Dans cet article, nous nous intéressons à la détection à la fois des droites et des cercles dans une image, tout en contrôlant le nombre de fausses détections et sans réglage particulier de paramètres. Nous présentons un détecteur qui étend l'algorithme LSD (Line Segment Detector) aux cercles, les deux étant fondés sur une approche a contrario. Du fait que le détecteur proposé vise deux types différents de primitives, la validation a contrario est utilisée comme méthode de sélection du modèle, ce qui représente une nouveauté dans les travaux fondés sur l'approche a contrario. De plus, nous proposons une nouvelle méthode d'estimation algébrique d'un cercle, qui profite également de la direction du gradient des points contour, et non pas uniquement de la position de ceux-ci
Perception Test: A Diagnostic Benchmark for Multimodal Video Models
We propose a novel multimodal video benchmark - the Perception Test - to
evaluate the perception and reasoning skills of pre-trained multimodal models
(e.g. Flamingo, BEiT-3, or GPT-4). Compared to existing benchmarks that focus
on computational tasks (e.g. classification, detection or tracking), the
Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and
types of reasoning (descriptive, explanatory, predictive, counterfactual)
across video, audio, and text modalities, to provide a comprehensive and
efficient evaluation tool. The benchmark probes pre-trained models for their
transfer capabilities, in a zero-shot / few-shot or limited finetuning regime.
For these purposes, the Perception Test introduces 11.6k real-world videos, 23s
average length, designed to show perceptually interesting situations, filmed by
around 100 participants worldwide. The videos are densely annotated with six
types of labels (multiple-choice and grounded video question-answers, object
and point tracks, temporal action and sound segments), enabling both language
and non-language evaluations. The fine-tuning and validation splits of the
benchmark are publicly available (CC-BY license), in addition to a challenge
server with a held-out test split. Human baseline results compared to
state-of-the-art video QA models show a significant gap in performance (91.4%
vs 43.6%), suggesting that there is significant room for improvement in
multimodal video understanding.
Dataset, baselines code, and challenge server are available at
https://github.com/deepmind/perception_testComment: 25 pages, 11 figure